Data shift(数据漂移/数据分布变化):指同一类数据在不同时间、环境或来源下,其统计特征或分布发生变化,常见于机器学习中:训练数据与上线/实际运行数据不再同分布,从而导致模型效果下降。
(也可泛指“数据发生位移/变化”,但最常用的是“分布漂移”的含义。)
/ˈdeɪtə ʃɪft/(也常读作 /ˈdætə ʃɪft/)
Data shift can make a good model perform badly in production.
数据漂移会让一个原本表现很好的模型在实际环境中表现变差。
After the product launch, we monitored data shift by comparing the new user behavior distribution with the training set, and retrained the model when the gap grew.
产品上线后,我们通过对比新用户行为分布与训练集来监控数据漂移,并在差异扩大时重新训练模型。
该短语由 data(数据)+ shift(转移、变化)组成。shift 源自古英语 sciftan,有“移动、转变”之意;在现代技术语境中,data shift 多用于强调“数据分布发生了转变”,与机器学习中的泛化与稳定性问题密切相关。